查看原文
其他

徒有虚名的单细胞转录组

生信技能树 生信技能树 2022-08-15

最近交流群有小伙伴提问《单细胞转录组》数据分析,我给了他我录制好了3个系列视频,和十套完整代码。但是对方说根本就没有用,我就纳闷了, 我的资料教会了那么多人单细胞数据分析,为什么就渡不了他呢?

就问了他数据集,结果是来源于一个2021发表的最新文献,广西大学的,标题是:《Single-Cell RNA-Seq Revealed the Gene Expression Pattern during the In Vitro Maturation of Donkey Oocytes》,我直接进入文章正文搜索其公布的单细胞数据情况,很容易可以看到:https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=763991

全部的六个样品如下所示:

ILLUMINA (Illumina NovaSeq 6000) run: 23.1M spots, 6.9G bases, 2Gb downloads
Accession: SRX12217372

ILLUMINA (Illumina NovaSeq 6000) run: 20.1M spots, 6G bases, 1.8Gb downloads
Accession: SRX12217371 

ILLUMINA (Illumina NovaSeq 6000) run: 21.8M spots, 6.5G bases, 1.9Gb downloads
Accession: SRX12217370

ILLUMINA (Illumina NovaSeq 6000) run: 23.2M spots, 6.9G bases, 2.1Gb downloads
Accession: SRX12217369

ILLUMINA (Illumina NovaSeq 6000) run: 24M spots, 7.1G bases, 2.2Gb downloads
Accession: SRX12217368

ILLUMINA (Illumina NovaSeq 6000) run: 19.7M spots, 5.8G bases, 1.9Gb downloads
Accession: SRX12217367

也就是说,它并不是我们常规描述的单细胞转录组数据,其实本质上仍然是一个普普通通的转录组数据,分成了2个组,每个组里面是3个样品而已!

既然是常规的转录组实验设计,所以基本上按照我们转录组数据分析思路来即可!

首先是质量控制

质量控制最重要的就是3张图了啊,如下所示:

是质量控制

我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:主成分图和样品相关性热图,都是为了说明我们的分组的差异是大于组内样品的差异的。

然后是差异分析

既然说明了们的分组的差异是大于组内样品的差异的,接下来就可以很简单的对两个分组进行普普通通的差异分析啦!

差异分析的图表也是固定的,火山图和热图!这个基本上 公众号推文即可,在:

火山图和热图

最后是上下调基因的go和kegg数据库注释

有了上下调基因列表,就可以进行标准的生物学功能数据库注释了,其实MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;
  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;
  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:
  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分
  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)
  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO  发表芯片数据
  • C7: immunologic signatures: 免疫相关基因集合。

不过,通常情况下,大家并不需要对MSigDB数据库的全部类别的全部基因集进行注释,看看go和kegg数据库注释即可,如下所示:

go和kegg数据库注释

全文升华需要一个故事落脚点

作者选择了 glycosylation genes. 主要是 N-Glycan biosynthesis 和 mucin-type O-Glycan biosynthesis 这两个 通路进行热图可视化。

而且,按照惯例,大家会实验验证部分差异基因,因为历史遗留原因,大家对ngs的高通量找差异的结果持怀疑态度。一般来说,就是 qPCR Validation 啦!

其实这个认知的冲突来源于

smart-seq2和10x技术的5大差异

Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的,它们代表着单细胞的两个全然不同的发展策略。

绝大部分的技术原理介绍会从 单细胞悬浮液制备到测序细节面面俱到,其实并不那么的初学者友好,最近有粉丝在公众号后台留言说他们的博士课程有一个思考题是:简要概述smart-seq2和10x技术的单细胞差异。

然后他给大家推荐了一个高度精炼的综述,这个综述于2020年9月发表在 《Experimental & Molecular Medicine》杂志,标题是:《Single-cell sequencing techniques from individual to multiomics analyses》,链接是:https://www.nature.com/articles/s12276-020-00499-2

五大差异

可以看到,smart-seq2技术依赖于C1这个仪器,每次都是96个细胞一起测序,每个细胞的测序量这个综述可能是写错了,应该是1M-10M为佳,不太可能是100-1000个M,最重要的是它是整个RNA分子的全长测序,每个细胞都是独立的测序。

但是10X呢,每次可以测好几千的细胞,每个细胞只需要5-10K的reads,而且仅仅是测RNA分子的一段即可,全部的细胞都混合在一起,虽然说有barcode可以区分。

这样的基础认知,也可以看基础10讲:

最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存